我们旨在使用大量自动转录语音来改进口语建模(LM)。我们利用INA(法国国家视听学院)的收藏,并在350,000小时的电视节目中应用ASR后获得19GB的文本。由此,通过微调现有的LM(FLAUBERT)或通过从头开始训练LM来培训口语模型。新模型(Flaubert-Oral)与社区共享,并评估了3个下游任务:口语理解,电视节目的分类和语音句法解析。结果表明,与最初的Flaubert版本相比,Flaubert-Oral可能是有益的,表明尽管其固有的嘈杂性,但ASR生成的文本仍可用于构建口头语言模型。
translated by 谷歌翻译
As Artificial and Robotic Systems are increasingly deployed and relied upon for real-world applications, it is important that they exhibit the ability to continually learn and adapt in dynamically-changing environments, becoming Lifelong Learning Machines. Continual/lifelong learning (LL) involves minimizing catastrophic forgetting of old tasks while maximizing a model's capability to learn new tasks. This paper addresses the challenging lifelong reinforcement learning (L2RL) setting. Pushing the state-of-the-art forward in L2RL and making L2RL useful for practical applications requires more than developing individual L2RL algorithms; it requires making progress at the systems-level, especially research into the non-trivial problem of how to integrate multiple L2RL algorithms into a common framework. In this paper, we introduce the Lifelong Reinforcement Learning Components Framework (L2RLCF), which standardizes L2RL systems and assimilates different continual learning components (each addressing different aspects of the lifelong learning problem) into a unified system. As an instantiation of L2RLCF, we develop a standard API allowing easy integration of novel lifelong learning components. We describe a case study that demonstrates how multiple independently-developed LL components can be integrated into a single realized system. We also introduce an evaluation environment in order to measure the effect of combining various system components. Our evaluation environment employs different LL scenarios (sequences of tasks) consisting of Starcraft-2 minigames and allows for the fair, comprehensive, and quantitative comparison of different combinations of components within a challenging common evaluation environment.
translated by 谷歌翻译
联合学习(FL)是以分散的方式共同训练机器学习算法的范式。 FL中的大多数研究都集中在基于神经网络的方法上,但是,由于克服算法的迭代和添加性特征的挑战,在联合学习中基于XGBoost的方法(例如XGBOOST)在联合学习中没有得到反应。基于决策树的模型,尤其是XGBoost,可以处理非IID数据,这对于联合学习框架中使用的算法很重要,因为数据的基本特征是分散的,并且具有本质上非IID的风险。在本文中,我们专注于研究通过对各种基于样本量的数据偏斜方案进行实验以及这些模型在各种非IID方案下的性能,通过非IID分布的影响如何受到非IID分布的影响。我们在多个不同的数据集中进行了一组广泛的实验,并进行了不同的数据偏斜分区。我们的实验结果表明,尽管有各种分区比率,但模型的性能保持一致,并且与以集中式方式训练的模型接近或同样良好。
translated by 谷歌翻译
由于隐私立法赋予用户有权被遗忘的权利,因此使模型忘记其某些培训数据已经成为必不可少的。我们探讨了删除任何客户在联邦学习(FL)中的贡献的问题。在FL回合中,每个客户都进行本地培训,以学习一个模型,以最大程度地减少其私人数据的经验损失。我们建议通过逆转学习过程,即训练模型\ emph {最大化}局部经验损失来对客户(将要删除)进行学习。 In particular, we formulate the unlearning problem as a constrained maximization problem by restricting to an $\ell_2$-norm ball around a suitably chosen reference model to help retain some knowledge learnt from the other clients' data.这使客户可以使用投影的梯度下降来执行学习。该方法确实不需要全局访问用于培训的数据,也不需要由聚合器(服务器)或任何客户端存​​储的参数更新历史记录。 MNIST数据集的实验表明,所提出的未学习方法是有效的。
translated by 谷歌翻译
我们介绍了DeepNash,这是一种能够学习从头开始播放不完美的信息游戏策略的自主代理,直到人类的专家级别。 Stratego是人工智能(AI)尚未掌握的少数标志性棋盘游戏之一。这个受欢迎的游戏具有$ 10^{535} $节点的巨大游戏树,即,$ 10^{175} $倍的$倍于GO。它具有在不完美的信息下需要决策的其他复杂性,类似于德克萨斯州Hold'em扑克,该扑克的游戏树较小(以$ 10^{164} $节点为单位)。 Stratego中的决策是在许多离散的动作上做出的,而动作与结果之间没有明显的联系。情节很长,在球员获胜之前经常有数百次动作,而Stratego中的情况则不能像扑克中那样轻松地分解成管理大小的子问题。由于这些原因,Stratego几十年来一直是AI领域的巨大挑战,现有的AI方法几乎没有达到业余比赛水平。 Deepnash使用游戏理论,无模型的深钢筋学习方法,而无需搜索,该方法学会通过自我播放来掌握Stratego。 DeepNash的关键组成部分的正则化NASH Dynamics(R-NAD)算法通过直接修改基础多项式学习动力学来收敛到近似NASH平衡,而不是围绕它“循环”。 Deepnash在Stratego中击败了现有的最先进的AI方法,并在Gravon Games平台上获得了年度(2022年)和历史前3名,并与人类专家竞争。
translated by 谷歌翻译
我们将解决多车程路由问题解释为马尔可夫的团队游戏,其成本部分可观察到。为了为一组给定的客户提供服务,游戏代理(车辆)的共同目标是确定最佳的总成本的团队最佳代理路线。因此,每个代理商仅观察自己的成本。我们的多机构增强学习方法,即所谓的多机神经重写者,建立在单格神经重写者的基础上,以通过迭代重写解决方案解决该问题。并行代理操作执行和部分可观察性需要游戏的新重写规则。我们建议在系统中引入一个所谓的池,该池是未访问的节点的收集点。它使代理商能够同时采取行动并以无冲突的方式交换节点。我们仅在学习过程中仅分享对代理的成本的有限披露。在推断期间,每个代理人都完全基于其自身的成本来表现出来。小问题大小的首先经验结果表明,我们达到的性能接近所采用的Or-Tools基准,该基准在完美的成本信息设置中运行。
translated by 谷歌翻译
我们解决了联合学习(FL-HPO)的超参数优化(HPO)的相对未开发的问题。我们引入联邦损失表面聚合(Flora),该框架的第一个FL-HPO解决方案框架可以解决除了在流体文献中通常寻址的随机梯度下降/神经网络之外的表格数据和梯度提升训练算法的用例。该框架使单次FL-HPO能够首先识别**单次**培训中使用的良好的超参数集。因此,与没有HPO的FL训练相比,它使FL-HPO解决方案具有最小的额外通信开销。我们对七个OpenML数据集的梯度提升决策树Flora的实证评估表明,对所考虑的基线,以及越来越多的涉及FL-HPO培训的各方的鲁棒性,可以显着的模型准确性。
translated by 谷歌翻译
了解任务学习后神经电路中的活动如何重新成像,可以揭示学习的基本机制。由于神经成像技术的最近进步,高质量的记录可以在多天甚至几周内从数百个神经元获得。然而,人口响应的复杂性和维度对分析构成了重大挑战。研究神经元适应和学习的现有方法通常对数据或模型产生强烈的假设,导致不概括的偏置描述。在这项工作中,我们使用一个叫做 - Cycleangan的深度生成模型的变种,了解预先和后学后神经活动之间的未知映射,记录了$ \ texit {vivo} $。我们开发一个端到端的管道到预处理,火车和评估荧光信号,以及解释所得到的深度学习模型的过程。为了评估我们方法的有效性,我们首先在具有已知地面实话转换的合成数据集中测试我们的框架。随后,我们将我们的方法应用于从初级视觉皮层记录的表现小鼠记录的神经活动,其中小鼠从新手转换到基于视觉的虚拟现实实验中的专家级性能。我们评估了产生的钙信号的模型性能及其推断的尖峰列车。为了最大限度地提高性能,我们推导了一种新的预选神经元方法,使得基于卷积的网络可以利用神经活动中存在的空间信息。此外,我们还纳入了视觉解释方法,以提高我们工作的可解释性,并进入学习过程中的洞察力,表现在细胞活动中。我们的结果表明,分析具有数据驱动的深度无监督方法的神经元学习过程,其可能以不偏不倚的方式解开变化的可能性。
translated by 谷歌翻译
Federated learning facilitates the collaborative training of models without the sharing of raw data. However, recent attacks demonstrate that simply maintaining data locality during training processes does not provide sufficient privacy guarantees. Rather, we need a federated learning system capable of preventing inference over both the messages exchanged during training and the final trained model while ensuring the resulting model also has acceptable predictive accuracy. Existing federated learning approaches either use secure multiparty computation (SMC) which is vulnerable to inference or differential privacy which can lead to low accuracy given a large number of parties with relatively small amounts of data each. In this paper, we present an alternative approach that utilizes both differential privacy and SMC to balance these trade-offs. Combining differential privacy with secure multiparty computation enables us to reduce the growth of noise injection as the number of parties increases without sacrificing privacy while maintaining a pre-defined rate of trust. Our system is therefore a scalable approach that protects against inference threats and produces models with high accuracy. Additionally, our system can be used to train a variety of machine learning models, which we validate with experimental results on 3 different machine learning algorithms. Our experiments demonstrate that our approach out-performs state of the art solutions. CCS CONCEPTS• Security and privacy → Privacy-preserving protocols; Trust frameworks; • Computing methodologies → Learning settings.
translated by 谷歌翻译